تفکیک ابعاد متعامد از خوشههای سؤال بر اساس هشت روش تعیین بعد در دادههای دو ارزشی: مورد آزمون ریاضی رشته ریاضی فیزیک کنکور 29-29

تفکیک ابعاد متعامد از خوشههای سؤال بر اساس هشت روش تعیین بعد در دادههای دو ارزشی: مورد آزمون ریاضی رشته ریاضی فیزیک کنکور 29-29 1 بالل ایزانلو 2 عباس بازرگان 3 ولی... فرزاد 4 ناهید صادقی 5 امیر کاوسی تاریخ وصول: 94/8/31 تاریخ پذیرش: 5//91/4 چکيده زمینه: مشخص کردن ابعاد )عاملها( موجود در آزمونها اهمیت بسزایی برای سایر اهداف آزمونسازی دارد. این موضوع در دادههای دو ارزشی اهمیت بیشتری داشته و با چالشهای بیشتری نیز همراه است. هدف: هدف این مطالعه مشخص کردن ابعاد متعامد از خوشههای سوال بر اساس مقایسه نتایج هشت روش تعیین ابعاد دادههای دو ارزشی است. روش: این روشها عبارتند از: روش ناپارامتریک DIMTEST روش ناپارامتریک DETECT تحلیل محتوای سؤالها براساس قضاوت متخصصان محتوایی و بررسی جوابهای آنها تحلیل عاملی کل اطالعات تحلیل خوشه بر اساس زاویه بین بردار سؤالها تحلیل موازی آزمون MAP و تحلیل برگرفته از رساله دکتری با عنوان"مقایسه کارایی مدلهای جبرانی و غیرجبرانی چندبعدی نظریه سؤال پاسخ در برآورد پارامترهای سوال و فرد: مورد آزمونهای سراسری ورود به دانشگاه" دانشکده روانشناسی دانشگاه تهران 1- استادیار گروه تحقیقات آموزشی دانشگاه خوارزمی )نویسنده مسئول( b.ezanloo@gmail.com 2- استاد دانشکده روانشناسی و علوم تربیتی دانشگاه تهران 3- دانشیار دانشکده روانشناسی و علوم تربیتی دانشگاه خوارزمی 4- استادیار دانشکده روانشناسی و علوم تربیتی دانشگاه تهران 5- دانشیار دانشگاه علوم پزشکی شهید بهشتی

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 802 عاملی تأییدی. ابتدا روشها به طور مختصر توصیف و سپس براساس دادههای آزمون 55 سوالی ریاضی رشته ریاضی فیزیک 21-22 مقایسه شدهاند. یافتهها: نتایج تاییدی بر این مطلب است که باید بین تعداد خوشه و ابعاد متعامد تمایز قایل شد. بحث و نتیجهگیری: از آنجا که تعداد خوشهها حد باالیی برای تعداد ابعاد است و اکثر روشهای تعیین ابعاد منعکس کننده خوشهها هستند تا ابعاد متعامد پس بهتر است بسته به هدف مورد نظر همراه با مالحظات منطقی و محتوایی از چندین روش برای این منظور استفاده کرد. واژگان کليدی: خوشه بعد دادههای دو ارزشی آزمون ریاضی. مقدمه اندازهگیری هر شی یا هر چیز فقط یک ویژگی شی اندازهگیری شده را توصیف میکند این مشخصه کلی تمام اندازهگیریهاست )ترستون 1231 1 ص 252(. در واقع مقایسه کیفی و کمی معنا خواهد داشت )مکنمار 1241(. افراد در آزمونها تنها تحت شرایط تکبعدی بودن 2 با مباحث روایی 4 کارکرد متفاوت سؤال )تات 2003( 5 اعتبار )وکالتی پنتانن و مسئله بعد 3 ترکنه 2002( 1 و سنجش بدون سوگیری 2 )جیائو 2004( 8 ارتباط دارد. این موضوع در نظریه )ریز 1222( 10 همبسته بودن کالسیک نیز به طور غیرمستقیم در قالب اصل استقالل شرطی 2 خطاها )زیمرن و ویلیامز 1280( 11 یا فرض همگنی 12 سوالها مورد اشاره قرار گرفته )مک دونالد 1222(. 13 دلیل اهمیت بیشتر تکبعدی بودن در نظریه سؤال پاسخ آن است که همراه 1. Thurstone 2. Unidimensionality 3. Dimensionality 4. Validity 5. Tate 6. Vehkalahti, Puntanen & Tarkkonen 7. Unbiased testing 8. Jiao 9. Conditional (local) independence 10. Reese 11. Zimmerman and Williams 12. Homogeneity 13. McDonald

802 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... با دو پیش فرض افزایش احتمال پاسخ درست به سؤالها همراه با افزایش توانایی و مستقل بودن سؤالها پس از کنترل توانایی جزو پیش فرضهای مدلهای رایج این نظریه محسوب میشود )هابینگ و روسس 2003( 1 که نقض شدن آن منجر به سوگیری در برآورد پارامترها میگردد )ریکاس 1285 2 رایز مور و مای دو اولیوارس 2011(. 3 علت تاکید بر بحث بعد مشخص ساختار پنهانی است که در طول آزمایش در پاسخگویی به سؤالها موثر است. کردن پژوهشگر یا آزمونساز با فرض آگاهی از ساختار پنهان زیربنایی که تفاوت در عملکرد افراد را تبیین میکند وارد عمل میشود. بر این اساس ساختار پنهان در صورتی به طور کامل مشخص خواهد شد که در هر گروهی از افراد که از نظر تمام صفات پنهان یکسانند متغیرهای نشان دهنده مشاهده شده مستقل باشند. به این معنی که اگر متغیرهای تصادفی با سؤالهای مختلف باشد. چون هدف اندازهگیری تفکیک جامعه به اندازهگیری فرد از متغیرهای تصادفی گروههای G1 G2 است پس با آگاهی از هم مستقل خواهند شد به طوری که: در نتیجه با آگاهی از شناخت ما از نتایج فرد در یک سوال اطالعاتی در خصوص عملکردش در سایر سوالها فراهم نمیکند. یعنی تمام استنباطها و تفسیرهای روانشناسی در مورد فرد براساس آگاهی از عضویت گروهی وی بوده و زمانی که این عضویت مشخص شد اطالعات بیشتر پیرامون متغیرهای مشاهده به لحاظ روانشناسی نامربوطند )نواکوفسکی 1283(. 4 بر این اساس فرض استقالل مشاهدات در گروهی از افراد که صفات پنهان آنها یکسان است پایهای برای تشخیص این گروهها محسوب شده و از پیامدهای بحث 1. HabingAnd Roussos 2. Reckase 3. Reise, Moore, and Maydeu-Olivares 4. Nowakowska

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 810 ابعاد بوده و به خودی خود یک فرض محسوب نمیشود )لرد 1280(. 1 برخی افراد نظیر مک دونالد )1281( نیز اصل استقالل موضعی را مقدمه تعریف بعد میدانند و برخی دیگر مثل معتقدند لزوما رابطهای بین استقالل شرطی و تکبعدی بودن وجود ندارد و برقراری گلدشتاین 2 یکی از آنها دلیل بر وجود دیگری نیست )تروب و ولف 1281(. 3 برخالف جنبه نظری اصل استقالل شرطی اهمیت تجربی این اصل طی چند دهه گذشته مورد توجه قرار گرفته است )بل پاتیسون و وایثر 4 1288(. این اصل مبنای تعریف فضای پنهان است از این رو در اکثر موارد با تعریف بعد همراه است. به همین دلیل تعاریف جدید بعد به دنبال ارایه تعاریف جدید از این اصل صورت گرفته است. همگام با چالشهای نظری در خصوص مفهوم بعد در عمل نیز مشخص کردن ابعاد یک آزمون همیشه چالش انگیز است. به دست آوردن دادههای تکبعدی از آزمونهای چندبعدی و دادههای چندبعدی از آزمونهای تکبعدی حاکی از پیچیدگی موضوع بعد دارد و نشان میدهد که بازنمایی ماتریس نمرات حاصل از اجرای آزمونها و مشخص کردن تعداد ابعاد الزم برای تبیین روابط متقابل در این ماتریس هم به حساسیت سؤالهای آزمون نسبت به تفاوتهای فردی در فضای توانایی )تعداد ابعادی که آزمون قادر است افراد را در آنها تفکیک کند( و هم به میزان تغییرپذیری آزمودنیهای نمونه در سازههایی که آزمون برای اندازهگیری آنها ساخته شده )ابعادی که افراد آزمون دهنده در آن متفاوتند( وابسته است. به همین دلیل مشخص کردن تعداد ابعاد برای بازنمایی ماتریس نمرههای صفر و یک شده سؤالها همیشه چالش انگیز بوده. متأسفانه از دست دادن غنای مهارتهای الزم برای پاسخ درست به سؤالها هزینهای است که به خاطر صفر و یک کردن عملکرد افراد در سؤالها پرداخت میکنیم و به عبارتی ابعاد روانشناسی را فدای راحتی نمرهگذاری مینماییم )ریکاس 1220(. 1. Lord 2. Goldstein 3. Traub and Wolfe 4. Bell, Pattison And Withers

811 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... به لحاظ نظری در صورتی که جهت بردار تمام سؤالهای یک آزمون به یک سمت باشد ماتریس دادههای حاصل از اجرای آن آزمون با یک بعد نیز مدلسازی میشود حتی اگر دستیابی به پاسخ درست نیازمند چندین مهارت شناختی باشد. تحت این شرایط تفاوت افراد نمونه در برخی از مهارتهای شناختی الزم تأثیر کمی بر روی تعداد ابعاد الزم برای مدلسازی دادهها دارد. این در حالی است که اگر جهت بردار سؤالهای آزمون یا جهت بردارهای دستهای از آنها نسبت به بقیه متفاوت باشد مدلسازی ماتریس دادههای حاصل از اجرای این نوع آزمون تابع ابعاد تفکیک کنندگی سؤالها و ابعاد تغییرپذیری افراد نمونه در سازههایی است که به وسیله آزمون اندازهگیری میشود )ریکاس اکرمن و کارلسون 1288(. 1 با در نظر گرفتن تعداد ابعاد تفکیک کنندگی آزمون و تعداد ابعاد تغییرپذیری افراد تعداد ابعاد الزم برای مدلسازی دادهها برابر با کمترین هر یک از آنها است. چرا که وجود یک بعد در آزمون و نبود آن در نمونه و بالعکس باعث خنثی شدن اثر آن عامل در مدلسازی ماتریس دادهها میشود )اکرمن 1224 ریکاس 1220(. از سوی دیگر عواملی مثل طول آزمون حجم نمونه میزان همبستگی بین ابعاد )پاپ 2004( 2 جبرانی یا غیرجبرانی بودن ابعاد )دنگ و انسلی 3 2000( ساختار ساده یا پیچیده سؤالها )مکدونالد 1285 4 گرین 1283( 5 و وجود عامل حدس )یی 2002( 1 نیز بر تعداد و ماهیت ابعاد آزمونها بیتاثیر نیستند. به همین دلیل تعیین تعداد ابعاد یک آزمون هیچ راه حل روشن و مشخصی که مورد توافق همگان باشد ندارد. این در حالی است که اختالف نظرها و مشکالت این موضوع در بافت مدلهای دو ارزشی بیشتر نیز میشود. ظاهرا روشهای مبتنی بر رویکرد تحلیل عاملی و بررسی ماندهها بیشتر از همه مورد 1. Reckase, Ackerman& Carlson 2. Popp 3. Deng and Ansley 4. McDonald 5. Green 6. Yeh

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 818 استفاده قرار میگیرند و تا حدی نیز دارای توجیه منطقی هستند )هتی 1 1285(. از بین روشهای پارامتریک تعیین ابعاد در متغیرهای دو ارزشی روشهای تحلیل عاملی غیرخطی تحلیل عاملی کل اطالعات و رویکرد SEM بیشتر از همه مورد استفاده قرار میگیرند. یکی از روشهای مناسب در چارچوب SEM در نرم افزار MPLUS موجود است که با توجه به محدودیتها و ویژگیهای دادههای دو ارزشی از روش WLSMV برای برآورد استفاده میکند )جاسبر 2010(. 2 در بین روشهای ناپارامتریک نیز DIMTEST و DETECT جزو رایجترین روشها محسوب میشوند. روشهایی که بر مفهوم استقالل موضعی و رابطه آن با تکبعدی بودن استوارند )مثل G 2 χ 2 Q3 نسبت بخت و تبدیلهای لگاریتمی آنها( یا تحلیل موازی )که در حال حاضر بیشتر برای دادههای پیوسته استفاده میشود( به دلیل عدم در دسترس بودن نرم افزار زیاد رایج نیستند )اسوتینا و لوی 2012(. 3 تعدد روشهای آماری تعیین بعد و نرم نرم افزارهای مبتنی بر آنها گاهی باعث سر درگمی میشود. با وجود تعدد روشهای مختلف اکثر دستاندرکاران معتقدند که همراه کردن روشهای آماری با بررسی محتوایی و تحلیلهای منطقی الزمه رسیدن به ابعادی است که گمان میرود ابعاد واقعی دادهها باشند )نانداکومار و اکرمن 2004 4 اکرمن 1224(. 1221 با توجه به مباحث فوق و پیچیدگی علل روابط متقابل در ماتریس نمرات سؤالها منطقی نیست که در مورد تعداد ابعاد مورد نیاز برای مدلسازی آزمون فکر کنیم بلکه بهتر است به دنبال مدلسازی ماتریس نمرات حاصل از اجرای یک دسته سؤال بر روی یک نمونه خاص باشیم. زیرا ابعاد آماری استخراج شده از آزمونها همیشه به نمونه وابسته بوده و قابلیت تعمیم ندارد حتی اگر یک آزمون برای نمونههای مختلف استفاده شود. از سوی دیگر چون پاسخ درست به هر سؤال به سهم خود متفاوت از سایر سؤالها است پس برای بازنمایی دقیق ماتریس 1. Hattie 2. Jasper 3. Svetina and Levy 4. Nandakumar And Ackerman

812 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... دادهها به ابعادی برابر با تعداد سؤالها نیاز داریم. ولی چون نتایج حاصل از هر یک از سؤالها فاقد ثبات و اعتبار کافی است برای رسیدن به نتایج دارای اعتبار و ثبات کافی باید راهی پیدا کرد که با ترکیب اطالعات مشترک تعدادی از سؤالها به مقیاسی با نتایج دارای اعتبار و ثبات کافی برسیم. تحت این شرایط دو هدف وجود دارد. یک هدف آن است که تعداد خوشههای سؤالی که جهت بردارهای آنها به اندازه کافی به هم نزدیک و شبیه است مشخص کرده و به این طریق مقیاسی برای گزارش کردن نتایج پیدا کنیم. هدف دوم آن است که برای مدلسازی جایگاه افراد و کارکرد سؤالهای آزمون تعداد محورهای مختصات عمود بر هم را مشخص نماییم. این در حالی است که این دو هدف یکسان نیستند )ریکاس 2002(. پژوهش حاضر به دنبال آن است که نشان دهد کدام یک از روشهای تعیین ابعاد دادههای دو ارزشی منعکس کننده تعداد خوشههای سوال و کدام یک نشاندهنده ابعاد متعامد مناسب برای مدلسازی است. این روشها عبارتند از: 1( روش ناپارامتریک DIMTEST 2( روش ناپارامتریک DETECT 3( تحلیل محتوای سؤالها براساس قضاوت متخصصان محتوایی و بررسی جوابهای ارایه شده به آنها 4( تحلیل عاملی کل اطالعات 5( تحلیل خوشه بر اساس زاویه بین بردار سؤالها 1( تحلیل موازی 2( آزمون MAP و 8( تحلیل عاملی تأییدی. در ادامه هر یک از این روشها به طور مختصر توصیف و سپس نتایج آنها براساس دادههای تجربی مورد مقایسه و بحث قرار میگیرد. روشها :DIMTEST منطق حاکم بر این روش ساده است. اگر سؤالهای یک آزمون یک صفت را اندازهگیری کنند آنگاه میانگین کواریانس شرطی بین زوجهای سؤال به سمت صفر میل میکند. توجه کنیم که این تعریف از تکبعدی بودن براساس فرض استقالل موضعی ضروری 1 است که حالت ضعیفتر استقالل شرطی ضعیف است. خود استقالل شرطی ضعیف نیز حالت 1. Essential unidimensionality

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 812 تعدیل شده استقالل موضعی قوی است )ین و فیتزپاتریک 2001(. 1 برای اجرای این روش سؤالهای آزمون باید به دو دسته تقسیم شوند. یک دسته سؤاالتی هستند که گمان میرود است. بهترین اندازهگیری آنها در جهت مشخص شده به وسیله نمره توانایی ترکیبی مرجع 2 نمره توانایی ترکیبی مرجع ترکیب عناصر بردار توانایی است که بهترین جهت اندازهگیری آن در جهت بیشترین تشخیص است این دسته را آزمون تفکیک )PT( گویند. سایر شده 3 سؤالهای آزمون که گمان میرود بهترین جهت اندازهگیری آنها بیشترین تفاوت را با سؤالهای آزمون تفکیک شده دارد و به اصطالح چیزی متفاوت از آنها را اندازهگیری میکنند )AT( موسومند. انتخاب آزمون AT به روشهای مختلفی مثل استفاده از نظر به آزمون ارزیابی 4 متخصصان استفاده از تحلیل عاملی و خوشهبندی سؤالها بر اساس بهترین جهت اندازهگیری آنها در فضای توانایی انجام میشود. بسته به روش استفاده شده نتایج حاصل متفاوت خواهد آن است که اجازه دهیم خود این نرم افزار با استفاده بود. راه حل پیشنهاد شده به وسیله استوت 5 از الگوریتم خوشهبندی سؤالهای AT را پیدا کند. برای رسیدن به یک نتیجه متعادل بهتر است از یک نمونه برای پیدا کردن سؤالهای افراد AT و از نمونه دیگر برای محاسبه آزمون آماری استفاده شود. تحت این شرایط میانگین کواریانس زوجهای سؤال آزمون AT به شرط نمره در آزمون PT محاسبه میشود. آماره حاصل که T L نام دارد دارای سوگیری مثبت است )یعنی آزمونهای چندبعدی را تکبعدی نشان میدهد(. بنابراین با استفاده از تکرار مجموعه دادههای شبیهسازی شدهای که با دادههای مشاهده شده همخوان هستند ولی با مدل تکبعدی ایجاد شدهاند اصالح میشود. آمارهای که از این نوع دادههای شبیهسازی به دست میآید 1. Yen & Fitzpatrick 2. Composite Reference Score 3. Partitioned Test (PT) 4. Assessment Test (AT) 5. Stout

815 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... نام دارد. برای اصالح سوگیری مثبت برای N مجموعه داده شبیهسازی شده محاسبه و سپس میانگین آن به دست میآید آماره نهایی برابر است با: )2( معنادار شدن این آماره به رد فرض صفر مبنی بر تکبعدی بودن ضروری آزمون منجر میشود. اجرای این روش اولین گام توصیه شده در تعیین تعداد ابعاد است )ریکاس 2002(. :DETECT این روش مبتنی بر چند پیش فرض است که به جز یک استثناء همان پیش فرضهای مربوط به مدلهای سؤال پاسخ چندبعدی هستند. این فرضها عبارتند از: افزایش یکنواخت توابع سؤال پاسخ همراه با افزایش هر یک از تواناییها و برقراری استقالل موضعی به شرط تواناییها. با این تفاوت که این استقالل از نوع استقالل موضعی زوجی است که همان فرض مستثنی شده است. بر این اساس تعریف بعد در روش DETECT عبارت است از: تعداد ابعاد الزم برای برقرار شدن استقالل موضعی زوجی با استفاده از تابع یکنواخت افزایشی مدلهای سؤال پاسخ است. تعداد ابعادی که به تحقق شدن این ویژگی منجر شوند ابعاد الزم برای بازنمایی ماتریس نمرههای خام حاصل از تعامل افراد با سؤالها هستند. روش DETECT به دنبال تعیین خوشههای سؤال در فضای چندبعدی است. جهت اندازهگیری این خوشههای همگون با جهت اندازهگیری شده به وسیله کل تست متفاوت است. در این روش سؤالهای موجود در یک تست به خوشههای مختلفی تقسیم میشوند. را بیشینه کند مالک دستهبندی سؤالها به خوشههای تقسیمبندی که مقدار 1 DETECT مختلف خواهد بود. مقادیر نزدیک به صفر این آماره حاکی از تکبعدی بودن و مقادیر نزدیک یک یا بزرگتر از آن به چندبعدی بودن اشاره دارند. همراه با این شاخص آمارههای 1. DETECT value

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 812 شاخص نسبت 1 و شاخص 3 2 IDN نیز ارایه میشوند. شاخص نسبت بر اساس وارسی روایی مقدار DETEC انجام میشود. به این صورت که دادهها به دو نمونه تصادفی تقسیم میشوند. سپس تقسیمبندی که مقدار DETEC را برای نمونه اول بیشینه میکند مشخص میشود max( D(. به دنبال آن تقسیمبندی که مقدار DETEC را برای نمونه دوم بیشینه میکند نیز مشخص میگردد. سپس مقدار DETEC با استفاده از دادههای نمونه اول بر اساس تقسیمبندی به دست آمده برای نمونه دوم محاسبه میشود ref( D(. نسبت D ref به D max شاخصی برای تعیین تکبعدی بودن است. مقدار یک این نسبت نشان دهنده مشابه بودن تقسیمبندیهای به دست آمده در هر دو نمونه و ثبات راه حلهای به دست آمده است. مقادیر کوچکتر از یک نشان دهنده متفاوت بودن تقسیمبندیها است. مقادیر بسیار کوچک این نسبت نشان دهنده این است که تقسیمبندیها ناشی از شانس است و احتماال به تکبعدی بودن ضروری اشاره دارد. شاخص IDN بر اساس تقسیمبندی سؤالهای آزمون به دستههای مختلف نسب کواریانس برآورد شده سؤالها که از خوشهبندی سؤالها پیروی میکنند را مشخص میسازد. انتظار میرود که سؤالهای داخل یک خوشه با یکدیگر دارای کوواریانس مثبت و سؤالهای خوشههای مختلف با یکدیگر کوواریانس منفی داشته باشند. مقادیر یک برای این شاخص حاکی از آن است که الگوی کواریانس موجود بین خوشههای مختلف از نظر عالمت با آنچه مورد انتظار است همخوانی دارد یعنی از خوشهبندی حاصل تبعیت میکند به شرط آن که خوشهبندی حاصل )چندبعدی بودن( از ساختار ساده یا تقریبا ساده پیروی نماید )رسس و اوزبک 2001(. 4 تحلیل محتوا: در این روش سوالهای موجود در آزمون از نظر فرایندهای شناختی درگیر در پاسخگویی تحلیل میشوند. در اکثر موارد طبقهبندی محتوایی سوالها برای این منظور ناکارآمد بوده و با طبقهبندی آنها براساس تواناییهای شناختی الزم مطابقت ندارند. این 1. Ratio index 2. IDN index 3. Cross-Validation 4. Roussos & Ozbek

812 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... موضوع به خصوص در حوزه آزمونهای پیشرفت تحصیلی اهمیت دارد. از این رو توصیه بر تحلیل پاسخهای ارایه شده به سوالها است تا طبقهبندی محتوایی آنها. به عبارتی باید تالش شود سوالها از نظر فرایندهای شناختی الزم برای پاسخ دادن تحلیل شوند هر چند که تحلیل محتوایی نیز میتواند مفید باشد. تحلیل عاملی کل اطالعات: تعیین تعداد ابعاد براساس این روش که در نرمافزار TESTFACT ارایه شده مبتنی بر رویکرد تحلیل عاملی در نظریه سؤال است. این روش براساس فرض استقالل موضعی قوی تعداد ابعاد موجود در آزمون را مشخص میکند. در صورتی که همانند شرایط پژوهش فعلی تعداد الگوهای پاسخ ممکن بیشتر از تعداد افراد موجود در نمونه باشد میتوان از تفاوت آماره کای دوی حاصل از راه حلهای عاملی مختلف به عنوان مالک تعداد ابعاد الزم برای برقرار شدن فرض استقالل موضعی استفاده کرد. تفاوت مقادیر کای دو خود دارای توزیع کای دو با درجات آزادی برابر با تفاوت درجات آزادی کای دوهای مربوطه است. معنادار بودن آن حاکی از ترجیح راه حل دارای عاملهای بیشتر بر راه حل دارای عاملهای کمتر است. در سنجشهای بزرگ )نظیر مطالعه فعلی( تأثیر تفاوت مکانی پاسخ دهندهها باعث بزرگ شدن این آماره به خاطر اثر خوشهبندی میشود )دوتویت 2003 ص 588(. تحت این شرایط برای قابل توجیه بودن عاملهای حاصل از این روش پیشنهاد شده قبل از بررسی معنادار بودن آماره کای دوی حاصل بر 2 یا 3 تقسیم شود تا میزان آن کوچکتر شود. عاملهایی که پس از اعمال این مالک معنادار باشند میتوانند به عنوان انجام میشود )کیش 1215(. راه عامل محسوب گردند. این کار به خاطر از بین بردن اثر طرح 1 کار دیگر برای کنار آمدن با مسئله بزرگ شدن کای دو که به خاطر مخدوش شدن نمونهگیری ساده تصادفی است )زیرا کای دوی آماری بر اساس نمونهگیری ساده تصادفی استخراج شده( استفاده از رویکردی است که در SEM مورد استفاده قرار میگیرد. یعنی کای دو بر درجات آزادی آن تقسیم میشود و در صورتی که مقدار به دست آمده کمتر از 2 یا 3 باشد آن راه 1. design effect

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 812 حل عاملی پذیرفته شود. البته این راه حل قطعی نیست. بررسی بار عاملی سؤالها بر روی عاملهای مربوطه منطقی بودن تفسیر عاملهای استخراج شده و در نظر گرفتن این که معموال روش تحلیل عاملی کل اطالعات تعداد عاملها را بیش برآورد میکند )چون بر اساس فرض استقالل موضعی قوی پایهگذاری شده( همگی باید در مشخص کردن تعداد عاملها لحاظ شوند. )1215( مطرح شد ولی به دالیلی مثل تحلیل موازی: اگر چه این روش توسط هورن 1 دشواریهای محاسباتی همراه با توسعه نرم افزارهای مربوطه و کامپیوترها به تازگی برای تعیین تعداد ابعاد استفاده میشود )لدسما والرو-مورا 2002 2 یو پاپ دیگانگی و جانش-پنل 3 2002(. در این روش مقادیر ویژه حاصل از ماتریس دادههای واقعی که از مقادیر ویژه ماتریس دادههای شبیهسازی شده بزرگتر هستند به عنوان تعداد عاملهای واقعی در نظر گرفته میشود. حجم نمونه در دادههای واقعی و شبیهسازی شده یکسان است. به عالوه دشواری سؤالها در دادههای شبیهسازی شده برابر با دشواری سؤالها در دادههای واقعی است ولی بین سؤالها همبستگی وجود ندارد. در تحلیل حاضر از توابع موجود در نرم افزار R برای اجرای تحلیل موازی )ریول 2013( 4 استفاده شده است. آزمون متوسط کمینه تفکیکی )MAP( ولیسر : 5 این روش در هر یک از گامهای متوالی متوسط همبستگیهای غیرقطری مجذور شده موجود در یک ماتریس را مالک انتخاب تعداد ابعاد قرار میدهد. استخراج عاملها تا جایی ادامه مییابد که متوسط همبستگی تفکیکی مجذور شده غیرقطری به کمترین مقدار برسد )ولسیر 1 1221(. در تحلیل حاضر از توابع موجود در نرم افزار R برای اجرای این آزمون استفاده شده است )پرساقی و دسیمونی 2013(. 1. Horn 2. Ledesma And Valero-Mora 3. Yu, Popp, Digangi And Jannasch-Pennell 4. Revelle 5. Velicer's Minimum Average Partial (MAP) Test 6. Velicer

812 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... تحلیل خوشه: در این رویکرد بر اساس خوشهبندی متغیرها تعداد خوشهها که حد باالیی برای تعداد ابعاد است تعیین میشود. در بین روشهای تحلیل خوشه در حوزه مدلهای سوال )1213( نسبت به سایر روشهای رقیب بهتر ساختار پاسخ روش خوشهبندی سلسله مراتبی وارد 1 موجود در آزمون را بازنمایی میکند. به شرط آن که درونداد زاویه بین بردار سوالها باشد نه ماتریس همبستگی یا ماتریس فاصله اقلیدسی )ریکاس 2002(. روش وارد در هر گام دو خوشهای که مجموع مجذور درون خوشهای برای خوشه حاصل از ترکیب آنها حداقل مقدار ممکن باشد را با هم ترکیب میکند. همبستگی بین هر زوج سؤال برابر با کسینوس زاویه بین سؤالها در فضایی به ابعادی معادل با سؤالهای آزمون است. پس در مقایسه با هر فضایی با ابعاد کمتر )مثال دو یا سه بعد( بهترین شرایط را برای بررسی زاویه بین بردار سؤالها را فراهم میکند. در این پژوهش پس از تبدیل ماتریس همبستگی تتراکوریک حاصل از TESTFACT به ماتریس زاویه بین بردار سؤالها تحلیل خوشه با توابع موجود در نرم افزار R صورت گرفت )تیم هسته (. 2 R دومین مالک مناسب برای قضاوت در مورد تعداد ابعاد الزم بر اساس این روش بررسی زاویه بین بردار سؤالها در فضای دو و سه بعدی است. ضرایب تشخیص حاصل از چرخش وریماکس تمایز بین خوشههای سؤال را به وضوح نشان میدهند. لذا استفاده از آنها برای تحلیل خوشه بهتر از ضرایب تشخیص مایل یا چرخش نیافته است )کیم 2001(. ابتدا بارهای عاملی سؤالها در فضای دو و سهبعدی به شیب تبدیل شدند و سپس تحلیل خوشه براساس هر یک از آنها به صورت جداگانه انجام شد. در صورتی که بین مقادیر زوایه بردارهای حاصل از دو روش تفاوت زیادی نداشته باشد راه حل دارای ابعاد کمتر ترجیح داده میشود. تحلیل عاملی تأییدی: یکی از روشهای پرکاربرد برای تعیین تعداد ابعاد تحلیل عاملی تأییدی است. برخالف سایر روشها در این روش پژوهشگر براساس دانش نظری یا تجربی 1. Ward 2. R Core Team

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 880 ساختار عاملی آزمون را ترسیم و سپس با استفاده از روششناسی معادله ساختاری میزان برازش مدل ترسیم شده با دادههای مشاهده شده را بررسی میکند. با توجه به دو ارزشی بودن دادهها و تناسب افزار NOHARM برای تحلیل این دادهها در فضای چندبعدی اکتشافی و تأییدی از این نرم افزار برای این منظور استفاده شد )فراسر و مکدونالد 2012(. 1 نمونه کلیه شرکتکنندگان گروه ریاضی در آزمون سراسری سال 1321-1322 که مجاز به انتخاب رشته بودند )222241 نفر( جامعه این پژوهش را تشکیل میدهند. در پژوهش حاضر از دادههای آزمون 55 سوالی چهار گزینهای ریاضی برای مقایسه روشهای تعیین ابعاد استفاده شد. اکثر پژوهشگران هنگام انتخاب حجم نمونه بر چند نکته تاکید دارند که عبارتند از: )1( هر چه تعداد پارامترهای مدل بیشتر باشد حجم نمونه بیشتری الزم است. )2( برآورد پارامترها با افزایش حجم نمونه با ثباتتر خواهند شد. )3( توجه به هدفی که تحلیل برای رسیدن به آن انجام میشود. مثال تحلیل سؤال برای گنجاندن آنها در بانک سؤال در مقایسه با تحلیل سؤال برای ارزیابی آزمونها و پرسشنامهها به نمونه بیشتری نیاز دارد. )4( توزیع نمونهگیری افراد از نظر میزان تجانس. گروههای نامتجانس که کل پیوستار صفت مکنون را میپوشانند به نمونه بزرگتری نیاز دارند )5( تعداد سؤالها گزینهها و رابطه سوالها با سازه زیربنایی )ارالندو 2 2004(. شواهد موجود در پیشینه همگی بر نمونههای دست کم به حجم 1000 نفر )به خصوص برای مدلهای حاوی سه پارامتر( توافق دارند )ین 1282 3 کیم 2001(. 4 اگر چه براساس نظر متخصصان نمونههای 2000 تا 2500 به اندازه کافی بزرگ هستند. ولی با توجه به موارد ذکر شده در فوق و تعدد روشهای مختلف تعیین ابعاد تصمیم گرفته شد از نمونههای 5000 تایی 1. Fraser and McDonald 2. Orlando 3. Yen 4. Kim

881 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... استفاده شود. در روشهایی مثل DETECT که وارسی روایی در آنها توصیه شده لذا الزم است از دو نمونه مختلف برای اجرای این روش استفاده شود. یافتهها پاسخگویی به سوالهای این آزمون 55 سوالی چهار گزینهای نیازمند قدرت و تا حدی سرعت است. چون شیوه تحلیل عاملی که یکی از روشهای تعیین تعداد ابعاد است فقط برای آزمونهای توانایی کارایی دارد تاثیر سرعت و محدویت زمانی در آزمون فعلی میتواند نتایج آن را تا حدی مخدوش کند. برای کاهش تاثیر سرعت بر تعداد ابعاد حاصل از تحلیل عاملی از دو راه کار استفاده شد. اول آن که از حجم نمونه بزرگی استفاده شد. دوم آن که در هنگام تحلیل عاملی با استفاده از دستورات مربوطه در نرم افزار TESTFACT کلیه سوالهای بعد از آخرین سوال پاسخ داده شده توسط افراد به عنوان سوالهایی که افراد به خاطر محدودیت زمانی به آنها پاسخ ندادهاند لحاظ شدند و سوالهای قبل از این سوال به عنوان پاسخ نادرست معرفی شدند. بررسی اولیه سوالها نشان که سوال 53 با نمره کل رابطه منفی پایینی دارد. به عالوه تحلیل محتوایی صورت گرفته توسط معلمان نشان داد که سوال مورد نظر دارای ابهام محتوایی بوده و نادرست است. در سوال 55 نیز جواب با گزینه کلید همخوانی نداشت. پس این دو سوال کنار گذاشته شدند. بر این اساس سوالهای تحلیل شده به 53 سوال مورد رسید. :DIMTEST با توجه به نتایج حاصل از این روش که در جدول 1 ارایه شده میتوان فرض تکبعدی بودن ضروری را رد کرد و آزمون را چندبعدی در نظر گرفت. براساس توصیه متخصصان پس از اجرای این روش در اولین گام باید از روش DETECT برای تعیین تعداد ابعاد استفاده کرد که در ادامه ارایه شده است. :DETECT اجرای این روش به سه شاخص منجر میشود )جدول 2(. مقدار :DETECT برابر با مقدار 0/18 حاکی از تکبعدی بودن آزمون است. این در حالی که نتایج حاصل از DIMTEST به رد فرض تکبعدی بودن منجر شد. این گونه تناقضها در نتایح مربوط به

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 888 دادههای واقعی بعید نیست. ظاهرا تحت شرایطی که ساختار ساده به دالیلی مثل همبستگی بین عاملها یا پیچیدگی ساختار نقض شود نتایج حاصل از DETECT و DIMTEST به راحتی تفسیر نمیشود )نانداکومار و اکرمن 2004(. الزم به ذکر است که این شاخص بر اساس وارسی روایی در دو نمونه 5000 به دست آمده است. 2( شاخص نسبت: برابر با مقدار 0/24 است که تا حدی نشان دهنده عدم ثبات در خوشهبندی حاصل است. 3( شاخص :IDN برابر با مقدار 0/15 نشان دهنده عدم برقراری ساختار ساده بین خوشههای موجود در آزمون است. زیرا اگر ساختار سه بعدی مبتنی بر خوشهبندی به دست آمده ساده باشد میزان این شاخص برابر یک خواهد بود. جدول 1. نتایج حاصل از روش DIMTEST PT test -24-20-12-18-14-12-11-10-8-5-4 AT test -13-2-2-1-3-2-1 TL 14/8422 TG 2/0423 T 2/2112 P 0/00001 25 15-35-34-33-32-31-30-22-28-22-21 23-22-21-12-11 31-41-45-44-43-42-41-40-32-38-32 42 53-52-51-50-42-48

882 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... جدول 2. نتایج حاصل از روش DETECT IDN Ratio Cross Partition Index (Dmax/(Dref Validated DETECT 1 2 3 index 0/1412 0/2431 0/1832 10-2-1-3-2-1 32-22-25-4 14-12-11-8-2-5 -21-12-15-13 22-42-48-42 50-24-20-12-18-11 21 32-33-23 53-34-31-30-22-28 35-41-40-38-32-31 42-51-41-45-44-43 52 تحلیل محتوا: ابتدا به کمک سه دبیر تدریس کننده ریاضی سوالها مورد تحلیل محتوایی قرار گرفت. طبقهبندی سواالت از نظر محتوایی نشان داد میتوان تقریبا آنها را در 10 طبقه تقسیم کرد )جدول 3(. با این حال این نتایج در عمل زیاد کارایی نداشت. زیرا معلمان بیشتر تمایل دارند سؤالها را بر اساس طبقه محتوایی تقسیمبندی کنند تا صفات بنیادی الزم برای پاسخگویی. در عین حال تقسیمبندی برخی از سؤالها از نظر محتوایی در یک طبقه دشوار بود زیرا ساختار محتوایی برخی از آنها حالت سلسله مراتبی داشت. پس این امکان وجود داشت که آنها را به لحاظ محتوایی همزمان در چندین طبقه قرار داد. برخی از اختالف نظرها بین معلمان از همین موضوع ناشی میشد. مثال سؤال به مشتقگیری از یک معادله مثلثاتی که حاصل ترکیب دو تابع بود ارتباط داشت.

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 882 طبقه یا خوشه تابع و محاسبات جبری مثلثات و هندسه هندسه تحلیلی مشتق و کاربرد ان حد و پیوستگی انتگرال ریاضیات گسسته آمار سری جبر و احتمال جدول 3. نتایج تحليل محتوا بر اساس نظر معلمان در آزمون ریاضی سوالها 122-115-112-102-101-105-103-101 131-135-134-133-132-131-130-122-128-122-121-125-120-111-102-102 140-132-138-132 112-118-112-110 121-111-114-108 124-123 155-154-153-152-151-150-142-104-145 142-141 113 148-142-141-144-143 به دنبال ضعفهای فوق تالش شد براساس بررسی روند پاسخ ارایه شده به سوالها و ترکیب نتایج حاصل با اطالعات حاصل از تحلیل محتوا و خوشهبندی به دست آمده از روشهای DETECT و DIMTEST سؤالها بر اساس فرایندهای شناختی که برای رسیدن به پاسخ نهایی الزماند طبقهبندی شدند. نتایج حاصله نشان داد که سوالها در سه دسته کلی قرار میگیرند. سواالتی که نیازمند محاسبات جبری بوده و توانایی خواندن تاثیر عمدهای در پاسخ گویی به آنها ندارد. این سوالها که بیشترشان در خوشه اول حاصل از DETECT قرار دارند اکثرا جزو سوالهای ابتدایی بوده و نسبت پاسخهای درست آنها تقریبا زیاد است. دسته دوم سوالهایی بودند که خواندن و محاسبات جبری تقریبا به یک اندازه در پاسخگویی به آنها سهیم است. اکثر این سوالها به حوزه احتماالت و هندسه مربوط بوده و همان طور که بعدا مشخص میشود اکثرا حدسپذیری زیادی دارند. بیشتر این سوالها در خوشه دوم DETECT قرار دارند. دسته سوم که اکثر سوالها را شامل میشود بیشتر سوالهای دشوار و انتهایی را در بر میگیرد. در این سوالها خواندن و استدالل نسبت به محاسبات نقش مهمتری دارد. این

885 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... سوالها اکثرا در خوشه سوم DETECT قرار دارند. برخی از سوالهای دسته دوم و سوم به تجسم فضایی و استدالل نیاز داشته و شباهت زیادی به هم داشتند. بنابراین احتمال میرود که برخی از آنها همزمان بر روی توانایی خواندن یا محاسبات جبری دارای بار عاملی باشند. آزمون مربوطه دارای سه ریشه بزرگتر :TESTFACT ماتریس تتراکوریک هموار شده 1 از یک بود که میتواند مالکی سرانگشتی برای تعیین تعداد عاملها باشد. نتایج حاصل از آزمون کای دو )جدول 4( حاکی از آن است که حتی پس از تقسیم کای دوها بر 2 باز هم عاملهای 1 تا 4 معنادارند. نسبت کای دو به درجه آزادی نیز برای عامل پنجم کوچکتر از 3 شده که حاکی از چهار بعدی بودن ساختار آزمون است. با تقسیم کای دوها بر 3 باز هم عاملهای 1 تا 4 معنادارند. با این تفاوت که نسبت کای دو به درجه آزادی دو عاملی بودن ساختار آزمون را نشان میدهد. چون این نوع تحلیل عاملی بر اساس فرض استقالل موضعی قوی صورت میگیرد پس تعداد عاملهای استخراج شده از آن برای رسیدن به این فرض بیشتر از هر روش دیگری خواهد بود. توجه کنیم که فرض استقالل موضعی قوی به عواملی مثل ترتیب ارایه سوالها و هر عاملی که بر اجرا تاثیر گذار باشد حساس است لذا تصمیم نهایی در خصوص تعداد عاملها )2 یا 4( باید بر اساس مالحظالت منطقی و سایر شواهد صورت گیرد. 1. Smoothed

P فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 882 جدول 4. نتایج روش تحليل عاملی کل اطالعات CHI/DF 21/231 DF Difference 52 Chi Difference 1122/220 DF 4111 2Chi Square/ 31550/220 Chi Square 13101/440 عامل یک 2/210 51 4514 30420/230 دو 10841/410 405/220 2/221 50 4513 30014/210 سه 10022/520 141/01 3/310 42 4413 22818/2 چهار 52232/40 112/21 1/301 48 4414 22201/42 پنجم 52412/28 12/185 4311 22143/81 ششم 52282/11 >0/05 بارهای عاملی چرخش پروماکس )هنریچسون و وایت 1214 ( خوشههای سوال نامتجانسی که تشکیل یک بعد را میدهند نمایان میسازد )دوتویت 2003(. بررسی این بارها در جدول 5 نشان میدهد که خوشههای سوال از ساختار پیچیده تبعیت میکنند نه ساده. از بین 53 سوال فقط 3 تا 4 سوال دارای بار خالص بر روی عامل سوم میباشند. این سوالها که دارای بیشترین حدسپذیری میباشند جزو سوالهای خوشه دوم حاصل از DETECT بوده و به حوزه هندسه تحلیلی و احتماالت مربوطند که عالوه بر خواندن و محاسبات تا حدی به استدالل و تجسم فضایی نیز وابستهاند. سواالتی که بار باالیی بر روی عامل اول دارند در خوشه اول قرار میگیرند. سواالت خوشه سوم نیز بر روی عامل دوم دارای بار هستند. ترتیب خوشههای 2 و 3 حاصل از DETECT در نتایج حاصل از چرخش پروماکس تست فکت جابهجا شده این در حالی است که دستهبندی کلی حفظ گردیده. برخی از سوالهای نیز روی دو یا سه عامل دارای بار میباشند و تعداد معدودی از آنها نیز روی هیچ یک از سه عامل بار قابل قبولی ندارند. بر این اساس میتوان گفت اولین عامل منعکسکننده غالبترین ویژگی اندازهگیری شده توسط آزمون است که تغییرپذیری آن نیز در نمونه زیاد است. ولی عاملهای بعدی بیشتر تابع تعداد سوالها و فاصله جهتدار آنها از عامل اول است مثال عامل دوم همان خوشه سوم است که

882 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... سوالهای بیشتری دارد. در عین حال این عامل نسبت به عامل سوم )خوشه دوم( فاصله بیشتری نیز با اولین عامل دارد. همبستگی عامل اول با سوم 0/14 دوم و سوم 0/42 و اول و دوم 0/53 است. بر این اساس میتوان گفت عامل اول و سوم نسبت به دو عامل اول و دوم )خوشه اول و سوم( به هم نزدیکترند. این نتایج قابل توجه است و میتواند در تصمیمگیری نهایی در مورد تعداد ابعاد موثر باشد. 3 0/388 0/202 0/311 0/352 0/421 0/120 0/148 0/012 0/040 0/143 0/122 0/182 0/032 0/188 0/205 0/080 0/151 0/242 0/312 0/114 0/322 چرخش سوال 1 2 3 4 5 1 2 8 2 10 1 12 13 14 15 11 12 18 12 20 21 جدول 5. بارهای عاملی حاصل از چرخش پروماکس و وریماکس بر روی سه عامل وریماکس پروماکس سوال وریماکس پروماکس 2 1 3 2 1 3 2 1 3 2 1 0/534 0/288 0/311 0/412 0/001 28 0/333 0/140 0/531 0/302 -/042 0/434 0/125 0/040 0/142 0/232 -/233 22 0/135 0/282 0/101 0/010 0/133 0/525 0/321 0/428 0/312 0/225 0/314 30 0/311 -/028 0/248 0/211 -/300 0/242 0/452 0/322 0/318 0/325 0/021 31 0/315 0/013 -/012 0/421 0/002 -/231 0/184 0/305 0/521 0/043 0/012 32 0/110 0/483 0/202 0/021 0/483 0/024 0/052 0/423 0/131 -/020 0/402 0/33 0/284 0/123 0/111 0/218 0/000 0/541 0/414 0/420 0/018 0/321 0/401 34 0/028 0/412 0/430 -/031 0/404 0/351 0/538 0/315 -/083 0/513 0/228 35 -/023 0/210 0/154 -/105 0/214 0/132 0/208 0/023 -/023 0/811 -/120 31 0/014 0/221 0/122 -/021 0/051 0/251 0/101 0/321 0/001 0/518 0/254 32 0/214 0/285 0/422 0/213 0/112 0/301 0/222 0/250 0/135 0/222 0/132 38 0/182 0/411 0/280 0/114 0/422 0/120 0/302 0/521 0/083 0/122 0/410 32 0/083 0/523 0/112 -/012 0/548 0/022 0/551 0/201 -/022 0/522 0/021 40 0/135 0/240 0/111 0/005 0/018 0/124 0/321 0/032 0/121 0/382 -/154 41 0/145 0/325 0/311 0/055 0/302 0/212 0/553 0/123 0/140 0/558 -/041 42 0/288 0/111 0/104 0/240 -/023 0/542 0/421 -/225 0/015 0/120 -/443 43 0/022 0/442 0/320 -/111 0/405 0/350 0/233 0/023 0/151 0/222 -/051 44 0/033 0/221 0/231 -/132 0/041 0/822 0/402 0/381 0/123 0/322 0/220 45 0/022 0/502 0/205 -/033 0/522 0/084 0/432 0/214 0/311 0/321 -/052 41 0/150 0/422 0/142 0/083 0/512 -/021 0/030 0/542 0/101 -/142 0/523 42 0/022 0/431 0/384 -/020 0/321 0/308 0/311 0/322 0/405 0/122 0/100 48 -/002 0/122 0/214 -/124 0/011 0/821

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 882 0/422 0/022 0/200 0/500 -/041 -/013 42 0/121 0/404 0/525 0/028 0/288 0/434 22 0/312 0/032 0/328 0/332 -/112 0/224 50 0/043 0/451 0/583 -/132 0/352 0/522 23 -/028 0/101 0/005 -/141 0/202 -/128 51 0/021 0/103 0/230 -/022 0/112 0/028 24 0/084 0/322 -/003 0/041 0/424 -/144 52 0/544 0/113 0/225 0/128 0/002 0/014 25 0/220 -/231 0/452 0/301 -/452 0/482 53 0/433 0/482 0/132 0/452 0/444 -/122 21 0/545 0/122 0/321 0/115 -/011 0/145 22 تحلیل موازی: نتایج حاصل از این روش که در نمودار 1 ارایه شده نشان میدهد که بر اصلی 5 عامل وجود اساس تحلیل مولفههای اصلی 1 سه عامل و بر اساس تحلیل محورهای 2 دارد. مالک تعیین تعداد عاملها بر اساس این روش تعداد مقادیر ویژه دادههای واقعی است که از مقادیر ویژه دادههای شبیهسازی شده بزرگترند. این نتایج از 10 بار شبیهسازی به دست آمدهاند. 1. Principal Component Analysis 2. Principal axis Analysis

882 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... Eigen values of tetrachoric/polychoric matrix Eigen values of original and simulated factors and components 0 5 10 15 20 PC Actual Data PC Resampled Data FA Actual Data FA Resampled Data 0 10 20 30 40 50 Factor Number نمودار 1. نتایج حاصل از تحليل موازی براساس ده بار شبيهسازی آزمون متوسط کمینه تفکیکی )MAP( ولیسر: نتایج حاصل از آزمون MAP که در جدول 1 ارایه شده بر اساس همبستگی تتراکوریک که متناسب با شرایط دادههای این پژوهش است نشان میدهد که ساختار آزمون دارای 5 مولفه اصلی است. این نتایج از تکرار 10 بار شبیهسازی به دست آمدهاند.

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 820 جدول 6. نتایج آزمون متوسط کمينه تفکيکی وليسر و توان چهارم آن POLY.MAP.squared POLY.MAP.4th 0/118082 0/032025 0/014283 0/000842 0/008038 0/000242 0/002002 0/000123 0/001223 0/000180 0/001114 0/000111 0/002138 0/000120 تحلیل خوشه: براساس نمودار 2 تصمیمگیری در مورد تعداد خوشهها راحت نیست. محورعمودی به نوعی میزان فاصله بین خوشهها بر اساس درجه را در هر سطح از خوشهبندی نشان میدهد. تقریبا چهار تا 5 خوشه کلی وجود دارد. سواالت 12 2 23 13 1 3 15 و 21 که تشکیل دهنده دومین خوشه از سمت چپ هستند همان سواالتی هستند که در آزمون AT حاصل از DIMTEST و خوشه اول حاصل از DETECT قرار دارند. این سوالها نسبت به بقیه سریعتر تشکیل خوشه دادهاند. پس میتوان گفت همگونتر از بقیه هستند. بر این اساس میتوان گفت نتایج روش DETECT بر اساس اصل ساختار ساده سوالهای همگونی که نسبت به بقیه زاویه کمتری با هم دارند را مشخص میکند. برخی از سوالهای دومین خوشه از راست نیز تا حدی با سوالهای دومین خوشه حاصل DETET همخوانی دارند. اکثر سوالهای اولین خوشه سمت چپ نیز در بین سوالهای خوشه سوم پیدا میشوند. این سوالها فاصله بیشتری با سایر سوالها دارند. به همین دلیل نسبت به خوشه دوم تشکیل عامل مستقلتری دادهاند. در سطح جزیی تقریبا 2 خوشه در این آزمون وجود دارد. هر چند که تناسبی بین این خوشهبندی و طبقهبندی سوالها بر اساس نظر معلمان وجود ندارد. در سطح باالتر میتوان سوالها را به چهار خوشه تقسیم کرد. بررسی این خوشهها در نمودار دندانهای نشان میدهد که دو خوشه سمت راست فاصله کمی از هم دارند و به همین دلیل خیلی سریع با هم ترکیب شدهاند. این دو خوشه

821 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... با کمی فاصله با خوشه سوم از سمت راست ترکیب شدهاند. این خوشه که همان سواالت AT و اولین خوشه حاصل از DETECT است تفاوت بارزی نسبت به بقیه سوالها دو خوشه سمت راست دارد. ترکیب این سه خوشه با اولین خوشه سمت چپ با فاصله زیادی صورت گرفته. لذا میتوان ساختار آزمون دو یا سه عاملی در نظر گرفت. در عین حال میانگین زوایه بین بردارها )جدول 2( برابر با 11/88 است. کمینه زاویه بین بردار سوالها صفر درجه و بیشترین آن 28/81 درجه است که حاکی از پراکندگی نسبتا متوسط در بین آنهاست. انحراف استاندارد زاویهها برابر با 12/14 است. بر این اساس دست کم دوبعدی بودن ساختار آزمون کامال مشهود است. دومین مالک مناسب برای قضاوت در مورد تعداد ابعاد الزم بررسی زوایه بین بردار سوالها در فضای دو و سهبعدی است. برای این کار از بارهای برآورد شده سوالها با چرخش وریماکس در نرم افزار TESTFACT استفاده شده. ضرایب تشخیص حاصل از چرخش وریماکس تمایز بین خوشههای سوال را به وضوح نشان میدهند. لذا استفاده از آنها برای تحلیل خوشه بهتر از ضرایب تشخیص مایل یا چرخش نیافته است ( کیم 2001(. ابتدا بارهای عاملی سوالها در فضای دو و سهبعدی به شیب تبدیل شدند و سپس تحلیل خوشه بر اساس هر یک از آنها به صورت جداگانه انجام شد. نتایج این تحلیلها حاکی از کاهش میانگین و افزایش پراکندگی بین بردارها است. شاخصهای توصیفی به دست آمده نشان میدهد که به طور متوسط 8 درجه بین میانگین حاصل از فضای دو و سه بعدی تفاوت وجود دارد )جدول 2(. جدول 7. شاخصهای توصيفی حاصل از کسينوس همبستگی و فضای دو و سهبعدی وضعیت Max Min SD Mean 28/81 /12 صفر 14 11 / 88 کسینوس همبستگی 131/22 /22 صفر 23 30 / 51 دو بعدی 128/41 /21 صفر 32 38/ 11 سه بعدی

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 828 تحلیل عاملی تاییدی با :NOHARM جدول 8 همبستگی بین نه خوشه حاصل از تحلیل خوشه را نشان میدهد. نتایج حاصل از تحلیل تاییدی بر اساس این نوع خوشهبندی که در جدول 2 ارایه شده حاکی از آن است که وقتی 2 خوشه متمایل باشند عدم برازش به میزان قابل توجهی افزایش مییابد. در حالت 2 خوشه متمایل کاهش قابل قبولی در عدم برازش مدل نسبت به خوشههای متمایل رخ داده است. با این حال هنوز خود کای دو و نسبت آن به درجه آزادی نبود برازش را نشان میدهند. جدول 8. همبستگی بين نه دسته سوال حاصل از تحليل خوشه 2 8 2 1 5 4 3 2 خوشهها 1 1 1 1 0/811 2 1 0/825 0/852 3 1 0/103 0/554 0/480 4 1 0/201 0/241 0/820 0/248 5 1 0/248 0/228 0/880 0/815 0/820 1 1 0/800 0/852 0/281 0/231 0/201 0/151 2 1 0/282 0/282 0/844 0/242 0/224 0/123 0/181 8 1 0/818 0/884 0/818 0/231 0/211 0/838 0/151 0/145 2 در ادامه ترکیب خوشهها براساس نتایج حاصل از تحلیل خوشه صورت میگیرد تا روشهای دیگر مثل همبستگی یا خوشهبندی حاصل از نظر ملعمان. همان طور که نمودار دندانهای نیز نشان میدهد از سمت چپ خوشه 5 و 1 زودتر از سایر خوشهها با هم ترکیب شدهاند. ترکیب این دو خوشه به کاهش در عدم برازش منجر نشد بلکه تا حدی نیز آن را افزایش داد. این روند ترکیب خوشهها براساس نزدیکی خوشهها تا سه خوشه نهایی به کاهش

822 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... عدم برازش منجر نمیشود. لذا بر اساس نتایج تحلیل عاملی تاییدی باید نه عاملی بودن ساختار آزمون را تایید کرد. البته نوع عاملها از نوع متمایل است تا متعامد. نمودار 2. نمودار دندانهای حاصل از تحليل خوشه مبتنی بر کسينوس زاویه بردارها جدول 9. آمارههای برازش مبتنی بر رویکرد SEM 2 مایل 8 مایل 2 مایل 1 مایل 5 مایل 4 مایل 3 مایل آماره 2 متعامد 15210/548 1322 14251/120 1312 14111/220 1315 13252/521 1310 13115/812 1304 13511/084 1222 13123/221 1282 432282/204 1325 Chi Square DF 0/00001 0/00001 0/00001 0/00001 0/00001 0/00001 0/00001 0/00001 P 12/035 11/332 11/150 10/155 10/442 10/451 10/181 330/553 Chi/DF 0/042 0/045 0/045 0/044 0/043 0/043 0/043 0/252 RMSEA 0/28123 0/00338 0/28201 0/00322 0/28212 0/00321 0/2881 0/00314 0/28252 0/00224 0/28258 0/00224 0/28281 0/0022 0/50538 0/02023 Tanaka Index RMSR

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 822 بحث و نتيجهگيری همان طور که بردار سوالها در فضای سهبعدی )نمودار 3( نشان میدهد یک دسته از سوالها تقریبا موازی با اولین محور توانایی هستند. اکثر سوالهای نیازمند محاسبات جبری در این دسته قرار دارند. دومین دسته تقریبا عمود بر صفحهاند. اکثر سوالهای نیازمند توانایی خواندن و محاسبات در این گروه قرار دارند. به عالوه اکثر سوالهای دارای حدس پذیری در بین دسته اول و به خصوص دوم قرار گرفتهاند. دسته سوم که جهت بردار آنها به سمت محور سومین توانایی خم شده اکثرا سوالهای بسیار دشوار و انتهایی آزمون هستند. احتماال تاثیر سرعت و دشواری زیاد باعث شده جهت بردار این سوالها تغییر کند. به نظر میرسد جهت رو به باالی سوالهای دسته دوم و به خصوص سوم بیشتر منعکس کننده سرعت و محدودیت زمانی باشد. جهت متفاوت بردار سوالها در نمودار 3 حاکی از چندبعدی بودن آزمون است. این موضوع در نتایح DIMTEST که ضعیفترین شکل تکبعدی بودن است نیز منعکس شده است. نتایج حاصل از DETECT که به سه خوشه با ساختار پیچیده و تا حدی بدون ثبات منجر شد بر اساس تحلیل خوشه مبتنی بر کسینوس همبستگی سوالها نیز تایید شد. هر چند که سوالهای موجود در خوشههای دو روش کامال بر هم منطبق نیست. به عالوه تفاوت بین زاویه بردارها در فضای دو و سهبعدی ناچیز بود. زاویه مبتنی بر همبستگی زاویه بین سوالها در فضایی به ابعاد تعداد سوالها است. بررسی این مقادیر نشان میدهد که حداقل زاویه صفر و حداکثر آن 22 درجه است. این موضوع حاکی از تاثیر ناچیز عامل سوم و وجود دو توانایی حتمی است. در کنار این موضوع میانگین زاویه 11/88 نشان میدهد که در کل سوالها به دو توانایی وابستهاند و همان طور که تحلیل محتوا نیز نشان داد این دو توانایی محاسبات جبری و خواندن هستند. در کنار نتایج دو روش اخیر که تعداد خوشههای سوال را نشان میدهند. توان اول و چهارم آزمون MAP براساس محورهای اصلی 5 عامل را نشان داد که بیشتر با تعداد خوشههای سطح دوم همخوانی دارند تا عاملهای مستقل متعامد. نتایج تحلیل موازی نیز بر اساس مولفههای اصلی 3 عامل و بر اساس تحلیل محورهای اصلی 5 عامل را معرفی کرد.

825 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... بر این اساس میتوان گفت تحلیل موازی براساس مولفههای اصلی عاملهای مستقل بنیادی و بر اساس تحلیل محورهای اصلی با تعداد خوشهها همخوانی دارد. نتایج تحلیل عاملی تاییدی نیز بیشتر تعیین کننده تعداد خوشهها است تا ابعاد مستقل. به عالوه شاخص تاناکه و شاخصهای مبتنی بر ماندهها در اکثر مواقع )به خصوص زمانی که عاملها متعامد هستند( برازش کافی مدل را نشان میدهند. این در حالی است که کای دو و نسبت آن به درجه آزادی از عدم برازش حکایت دارند. در حالی که ترکیب خوشه به بدتر شدن برازش منجر میشود شاخصهای مبتنی بر ماندهها این عدم برازش را زیاد منعکس نمیکنند. این نتایج نشان میدهد استفاده از تحلیل عاملی تاییدی برای تعیین تعداد ابعاد باید با احتیاط به کار گرفته شود و دست کم هر نوع مدل باید حتما بر اساس سایر روشها نیز بررسی گردد. نمودار 3. بردار سوالها در فضای سهبعدی

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 822 نتایج حاصل از TESTFACT چهار عاملی بودن را تایید کرد. با توجه به فرض استقالل موضعی قوی این روش به سایر عوامل مثل ترتیب ارایه سوالها دشواری سرعت و حدس نیز حساس بوده و تعداد عاملها را بیش برآورد میکند. در حالت سه بعدی عامل اول %22 دوم %1/5 و عامل سوم %2/1 از واریانس را تبیین میکنند. سهم عامل سوم بسیار ناچیز است. با توجه به چندگزینهای بودن آزمون سوالهای دارای بیشترین حدس عبارتند از: )0/021(4 44)0/012( 38)0/013( 33)0/013( 32)0/031( 21)0/011( 25)0/035( 11)0/014( )0/03(42 )0/013(50 و )0/01(53. این سوالها عالوه بر این که روی عامل اول یا دوم و یا هر دو دارای بار باالیی هستند بر روی عامل سوم نیز دارای بار میباشند. براساس بارهای عاملی چرخش پروماکس سوالهای 25 4 و 42 تنها نشانگرهای خالص عامل سوم محسوب میشوند. این در حالی است که بر اساس نتایج چرخش وریماکس که برای انتخاب سوالهای هر عامل مناسبتر است فقط دو سوال 4 و 42 بر روی سومین عامل بار خالص دارند. سوال 4 که دارای بیشترین میزان حدسپذیری است بسیار دشوار نیز میباشد. سوال 42 نیز که جزو سوالهای انتهایی است دارای حدس پذیری زیادی است. الزم به ذکر است که سوالهای دارای بیشترین حدس پذیری در خوشه دوم و سپس سوم حاصل از DETECT قرار دارند. شش مورد از این سوالها در خوشه دوم یک مورد در خوشه اول و چهار مورد نیز در خوشه سوم قرار گرفتهاند. بنابراین تمام خوشهها تا حدی متاثر از حدس هستند. البته این تاثیر در خوشه دوم و سوم بیشتر است. از آنجا که سوالهای این دو خوشه جزو دشوارترین و انتزاعیترین سوالها هستند میتوان گفت افراد در مواجه با سوالهای سخت دست به حدس میزنند. اکثر سواالت دارای حدس به محتوای هندسه و احتماالت مربوط بوده و نیازمند توانایی خواندن و استدالل هستند. میزان حدسپذیری سایر سواالت بسیار پایین بود. عواملی مثل حدس پذیری دشواری و محدودیت زمانی جزو عوامل مؤثر در این آزمون بودهاند. دشواری آزمون در کل باال بوده. اکثر سواالت دشوار و انتهایی آزمون در خوشه سوم یا دوم قرار گرفتهاند. لذا میتوان گفت عامل سوم تا حد زیادی ناشی از دشواری حدس و سرعت )به طور متوسط افراد برای هر سوال

822 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... یک دقیقه و پنجا و پنج ثانیه زمان داشتهاند( است. بر این اساس عامل سوم میتواند ناشی از حدس دشواری و سرعت باشد تا یک ویژگی ذهنی. در نتیجه منطقی است تعداد ابعاد مستقل متعامد موجود در جامعه را دو توانایی در نظر بگیریم تا سه توانایی. از نظر کاربردی نتایج این پژوهش نشان داد که مشخص کردن تعداد ابعاد بر اساس یک روش بسیار گمراه کننده است. هدف از تحلیل نیز در انتخاب روش مورد نظر موثر است. مثال در صورتی که هدف پیدا کردن مقیاس برای گزارش کردن نمرهها است میتوان از روشهای مبتنی بر تحلیل عاملی DETECT MAP استفاده کرد. اما اگر هدف بازسازی تعامل افراد و سوالها بر اساس عاملهای مستقل است میتوان از روشهایی نظیر تحلیل موازی مبتنی بر مولفههای اصلی استفاده کرد که در مقایسه با محورهای اصلی عاملهای مستقل متعامد را مشخص میسازد. استفاده از تحلیل خوشه مبتنی بر کسینوس همبستگی و روشهای گرافیکی و نیز تحلیل محتوایی و شناختی سوالها نیز همیشه باید با سایر روشها همراه شوند چرا که باعث افزایش بصیرت نسبت به تعداد ابعاد مستقل بنیادی میشوند. مقایسه نتایج حاصل از DETECT و تحلیل عاملی حاصل از TESTFACT نشان داد که عامل اول غالبترین عامل در نمونه مورد نظر است که سوالهای آزمون آن را اندازهگیری میکنند. این در حالی است که عاملهای بعدی بیشتر بر اساس تعداد سوالها شکل میگیرند. اگر این یافته در مطالعات بعدی نیز اثبات شود حاکی از تاثیر خوشههای سوال بر تعداد عاملها است. بر این اساس تعداد خوشههای موجود در آزمونها حد باالیی برای ابعاد مستقل واقعی هستند. تعدد روشهای تعیین بعد باعث گردیده برخی از پژوهشگران بر اساس مالکهای خاصی الگوریتمهایی برای این منظور ارایه دهند )برای مثال جاسبر 2010(. برخی دیگر نیز بر اساس نوع نرم افزار و قابلیتهای آنها موضوع تعیین تعداد ابعاد را مورد بحث قرار دادهاند )برای مثال اسوتینا و لوی 2012(. نقطه مشترک همه آنها این است که روشهای DIMTESTو DETECT به عنوان نقطه شروع مورد استفاده قرار گیرند. سپس بر اساس نتایج آنها در مورد انتخابها سایر روشها تصمیمگیری شود. البته این انتخاب بسته به هدف امکانات و تمایل پژوهشگر به مشخص کردن دقیق ابعاد

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 822 آزمون میتواند متفاوت باشد. در حوزه آزمونسازی بر اساس این نتایج توصیه میشود مشابه این طرح روی سایر آزمونهای ورود به دانشگاه اجرا شود. به عالوه با عنایت به اهمیت تعداد ابعاد آزمون در تحلیل نتایج سازمان سنجش دورههای آموزشی در این باره برای نویسندگان سوالها طراحی کند تا از این طریق دست کم تاثیر ابعاد نامربوط بر روی نتایج کاهش یابد. منابع التين Ackerman, T. A. (1994). "Using multidimensional item response theory to understand what items and tests are measuring." Applied Measurement in Education7(4): 255-278. Ackerman, T. A. (1996). "Graphical representation of multidmensional item response theory analyses."applied Psychological Measurement20: 311 329. Deng, H. and T. N. Ansley (2000)."Detecting Compensatory and Noncompensatory Multidimensionality Using DIMTEST." Bell, R. C., P. E. Pattison, et al. (1988). "Conditional independence in a clustered item test." Applied Psychological Measurement 12(1): 15-26. du Toit, M. (2003). IRT from SSI: BILOG-MG, MULTILOG, PARSCALE, TESTFACT. Lincolnwood, IL: Scientific Software International. Fraser, C., McDonald, R. P. (2012). A Windows program for fitting both unidimensional and multidimensional normal ogive models of latent trait theory. Green, S. B. (1983). "Identifiability of spurious factors using linear factor analysis with binary items."applied Psychological Measurement7(2): 139-147. Habing, B. and L. A. Roussos (2003)."On the need for negative local item dependence."psychometrika68(3): 435-451. Hattie, J. (1985). "Methodology review: assessing unidimensionality of tests and ltenls." Applied Psychological Measurement9(2): 139-164. Hendrickson, A. E. and P. O. White (1964). "Promax: A quick method for rotation to oblique simple structure." British Journal of Statistical Psychology17(1): 65-70. Horn, J. L. (1965). "A rationale and test for the number of factors in factor analysis." Psychometrika30(2): 179-185. Jasper, F. (2010). "Applied dimensionality and test structure assessment with the START-M mathematics test." International Journal of Educational and Psychological Assessment6(1): 104-125. Jiao, H. (2004)."Evaluating the dimensionality of the Michigan English language assessment battery."spaan Fellow Working Papers in Second or Foreign Language Assessment Volume 2 20041001: 27.

822 تفکیک ابعاد متعامد از خوشههای سوال بر اساس هشت روش... Kim, J. P. (2001). Proximity measures and cluster analyses in multidimensional item response theory. East Lansing, MI, Unpublished doctoral dissertation, Michigan State University. Kim, S. (2006). "A comparative study of IRT fixed parameter calibration methods." Journal of Educational Measurement43(4): 355-381. Kish, L. (1965). SUR VEY SAMPLING.New York, Wiley. Ledesma, R. D. and P. Valero-Mora (2007)."Determining the Number of Factors to Retain in EFA: an easy-to-use computer program for carrying out Parallel Analysis."Practical Assessment, Research & Evaluation12(2): 1-11. Lord, F. M. (1980). Applications of item response theory to practical testing problems, Mahwah, NJ: Erlbaum. McDonald, R. P. (1981). "The dimensionality of tests and items."british Journal of mathematical and statistical psychology34(1): 100-117. McDonald, R. P. (1985). Factor analysis and related methods, Lawrence Erlbaum. McDonald, R. P. (1999). Test theory: A unified treatment, Lawrence Erlbaum. McNemar, Q. (1946). "Opinion-attitude methodology."psychological Bulletin43: 289-374. Nandakumar, R. and T. Ackerman (2004). "Test modeling." The sage handbook of quantitative methodology for the social sciences: 93-105. Nowakowska, M. (1983).Quantitative psychology: some chosen problems and new ideas. London: North Holland.. Orlando, M. (2004). "Critical issues to address when applying item response theory (IRT) models." Popp, E. C. (2004). "The effects on parameter estimation of sample size ratio, test length and trait correlation in a two-dimensional, two-parameter, compensatory item response model with dichotomous scoring." Presaghi, F. and M. Desimoni (2013). random.polychor.pa: A Parallel Analysis With Polychoric Correlation Matrices. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria: URL http://www.rproject.org/. Reckase, M. D. (1985). "The difficulty of test items that measure more than one ability." Applied Psychological Measurement9(4): 401-412. Reckase, M. D. (1990). "Unidimensional Data from Multidimensional Tests and Multidimensional Data from Unidimensional Tests." Reckase, M. D. (2009). Multidimensional item response theory, Springer Verlag. Reckase, M. D., Ackerman, T. A., & Carlson, J. E. (1988)."Building a unidimensional test using multidimensional items."journal of Educational Measurement25(3): 193-203. Reese, L. M. (1999). A classical test theory perspective on LSAT local item dependence, Law School Admission Council.

فصلنامه اندازه گیری تربیتی شماره 81 سال پنجم زمستان 39 820 Reise, S., T. Moore, et al. (2011). "Target rotations and assessing the impact of model violations on the parameters of unidimensional item response theory models." Educational and Psychological Measurement71(4): 684-711. Revelle, W. (2013).psych: Procedures for Personality and Psychological Research. Northwestern University, Evanston, Illinois. USA, http://cran.rproject.org/package=psych Version = 1.3.9. Roussos, L. A., & Ozbek, O. Y. (2006). "Formulation of the DETECT population parameter and evaluation of DETECT estimator bias." Journal of Educational Measurement43(3): 215-243. Svetina, D. and R. Levy (2012)."An Overview of Software for Conducting Dimensionality Assessment in Multidimensional Models."Applied Psychological Measurement36(8): 659-669. Tate, R. (2003). "A comparison of selected empirical methods for assessing the Structure of responses to test items."applied Psychological Measurement27: 159-203. Thurstone, L. L. (1947). Multiple factor analysis. Chicago, University of Chicago Press. Traub, R. E. and R. G. Wolfe (1981).Latent Trait Theories and the Assessment of Educational Achievement. Review of Research of Education. D. C. Berliner. Washington, DC, American Educational Research Association.9: 377-435. Vehkalahti, K., Puntanen, S., & Tarkkonen, L. (2009). Implications of Dimensionality on Measurement Reliability.In Statistical inference, econometric analysis and matrix algebra (pp. 143-160), Physica-Verlag HD. Velicer, W. F. (1976). "Determining the number of components from the matrix of partial correlations."psychometrika41(3): 321-327. Ward Jr, J. H. (1963). "Hierarchical grouping to optimize an objective function."journal of the American statistical association58(301): 236-244. Yeh, C.-C. (2007). The effect of guessing on assessing dimensionality in multiple-choice tests: A Monte Carlo study with application, University of Pittsburgh. Yen, W. M. (1987)."A comparison of the efficiency and accuracy of BILOG and LOGIST."Psychometrika52(2): 275-291. Yen, W. M., & Fitzpatrick, A. R. (2006).Item response theory.educational measurement. R. L. Brennan. Westport, CTPraeger Publishers: 111-154. Yu, C. H., S. O. Popp, et al. (2007). "Assessing unidimensionality: A comparison of Rasch modeling, parallel analysis, and TETRAD."Practical Assessment, Research & Evaluation12(14). Zimmerman, D. W. and R. H. Williams (1980). "Is classical test theory" robust" under violation of the assumption of uncorrelated errors?" Canadian Journal of Psychology/Revue canadienne de psychologie34(3): 227.